07. 数据类型总结

数据类型总结

概括

下表总结了我们的数据类型。

| 数据类型 | | |
|---|---|---|
| 数值: | 连续 | 离散 |
| | 身高、年龄、收入 | 书中的页数、院子里的树、咖啡店里的狗 |
| | | |
| 分类: | 定序 | 定类 |
| | 字母成绩等级、调查评级 | 性别、婚姻状况、早餐食品 |
以下是上表中分享的信息的一些细节。
要扩展表中的信息,你可以查看以下文本。

换个角度看

要分解我们的数据类型,主要有两大块:

数值分类

数值可以进一步分为连续离散

分类数据可以分为定序定类

你现在应该已经掌握了我们周围世界里的哪种数据属于这四大类:离散、连续、定类和定序。在后面的小节,我们将详细介绍与数值变量有关的数值总结。


数值与分类

其中一些可能有点棘手 —— 虽然邮政编码是一个数字,但它们并非数值变量。如果我们将两个邮政编码加在一起,并不会从得到的新值中获得任何有用的信息。因此,这是一个分类变量。

身高年龄书中的页数年收入采用的值我们可以进行加、减和执行其他运算,来获得有用的见解。因此,这些是数值数据。

性别字母成绩等级早餐类型婚姻状态邮政编码可以视为一组物品或个人的标签。因此,它们是分类数据。


连续和离散

要区分我们的数据是连续还是离散的,要看我们是否能将数据分割成更小的单元。想想时间 —— 我们可以用年、月、日、小时、分钟或秒来衡量一个事件,甚至是在秒级,我们知道仍然有更小的单位可以用来衡量时间。因此,我们知道此数据类型为连续的。身高年龄收入都是连续数据的例子。或者,我们知道书中的页数我数的咖啡店外的狗数量院子里的树离散数据。我们可不想将狗一分为二。


# 定序与定类

在看定类变量时,我们发现性别婚姻状态邮政编码早餐食品定类变量,这种类型的数据没有相关的顺序排列。无论你早餐吃麦片粥、吐司、鸡蛋还是只喝咖啡,它并没有相关的排序。

相反,字母成绩等级调查评级作为定序数据具有关联的排序。如果获得 A,它高于 A-。A- 的排名高于 B+,以此类推……定序变量在评级量表上很常见。在很多情况下,我们将这些定序变量变为数字,这样可以更容易地进行分析,稍后我们再详细说明这一点!


总结

在本节中,我们研究了我们会在生活中使用的不同数据类型。当我们在现实生活中使用数据时,它可能不是很干净,有时会有错字或值缺失。在这种情况下,拥有数据方面的专业知识并了解数据类型可以帮助我们清理数据。理解数据类型也可以帮助我们创建可视化来解释数据。稍后详细说明这点!